Extraction et identification d'entités complexes à partir de textes biomédicaux
نویسندگان
چکیده
Résumé. Nous présentons ici un système d’extraction et d’identification d’entités nommées complexes à l’intention des corpus de spécialité biomédicale. Nous avons développé une méthode qui repose sur une approche mixte à base d’ensemble de règles a priori et de dictionnaires contrôlés. Cet article expose les techniques que nous avons mises en place pour éviter ou minimiser les problèmes de synonymie, de variabilité des termes et pour limiter la présence de noms ambigus. Nous décrivons l’intégration de ces méthodes au sein du processus de reconnaissance des entités nommées. L’intérêt de cet outil réside dans la complexité et l’hétérogénéité des entités extraites. Cette méthode ne se limite pas à la détection des noms des gènes ou des protéines, mais s’adapte à d’autres descripteurs biomédicaux. Nous avons expérimenté cette approche en mesurant les performances obtenues sur le corpus de référence GENIA.
منابع مشابه
Annotation de textes par extraction d'informations lexico-syntaxiques et acquisition de schémas conceptuels de causalité
Résumé. Nous présentons la méthode INSYSE (Interface Syntaxe SEmantique) pour l’annotation de documents textuels. Notre objectif est de construire des annotations sémantiques de ces résumés pour interroger le corpus sur la fonction des gènes et leurs relations de causalité avec certaines maladies. Notre approche est semi-automatique, centrée sur (1) l’extraction d’informations lexico-syntaxique...
متن کاملGestion de l'incertitude dans le cadre d'une extraction des connaissances à partir de texte
Résumé. Le domaine de l’extraction de connaissances à partir de texte nécessite des méthodes permettant de détecter et de manipuler l’incertitude. En effet, de nombreux textes contiennent des informations dont la véracité peut être remise en cause. Il convient alors de gérer de manière efficace ces informations afin de représenter les connaissances de manière explicite. Une première démarche co...
متن کاملConstruction d'ontologies à partir de textes : la phase de conceptualisation
Résumé : Dans cet article nous nous interrogeons sur la manière d’outiller la phase de conceptualisation lors de la construction d’une ontologie à partir de textes. La mise en perspective des résultats obtenus à partir de techniques issues de la terminologie et de la fouille de textes est réalisée selon trois plans (discours, linguistique et conceptuel). Cette étude permet de mieux appréhender ...
متن کاملMise en lumière de relations sémantiques pour la construction d'ontologie à partir de textes
Résumé : La construction d’ontologies à partir de textes consiste à décrire des concepts par leurs relations conceptuelles et éventuellement leurs instances, à partir des matériaux textuels (termes, relations lexicales). Cet article propose une méthode pour mettre en lumière, par l’analyse de corpus, des relations lexicales susceptibles de donner naissance à des relations conceptuelles. Cette m...
متن کاملTraduction automatique de termes biomédicaux pour la recherche d'information interlingue
RÉSUMÉ. Dans cet article, nous présentons une méthode de traduction automatique de termes biomédicaux. Cette méthode s’appuie sur une technique originale d’apprentissage supervisé de règles de réécriture et sur l’utilisation de modèles de langue. Les évaluations présentées montrent que notre technique est très performante et permet de traduire à partir et à destination de n’importe quelle langu...
متن کامل